package com.tedu.moive;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * 实现  页面解析  实现类
 * 完成页面解析
 */
public class PageProcessorIMPL implements PageProcessor {

    // 定义 site对象  ,管理 url  设置 site对象的重试次数  和超时时间
    private Site site = Site.me().setRetryTimes(2).setTimeOut(5000);

    //页面解析  page对象:就是爬虫获取的数据
    public void process(Page page) {
        System.out.println(page.getHtml());
        //解析  获取新url  循环  获取数据


        //解析后的数据  交给Pipeline 对象 处理,,,保存数据库
    }


    public Site getSite() {
        return site;
    }
}
